Thinking for Doing
LLMの「心の理論」における能力を評価するフレームワーク(T4D)
社会的なシナリオにおいて、他者の心的状態に関する推論を行動に結びつけることをモデルに要求するもの。
T4Dの実験では、GPT-4やPaLM 2のようなLLMは、物語中の登場人物の信念を追跡することに優れているように見えるが、この能力を戦略的行動に変換することに苦労していることが示された
論文:
"考えることは行動すること"人間は観察から他人の精神状態を推論することができる--心の理論(ToM)と呼ばれる能力である--。ToMiのような既存の質問応答ベンチマークは、物語の登場人物の信念に関する推論を行うためにモデルに質問を行うが、その後、モデルが行動を導くためにこれらの推論を使用できるかどうかをテストしない。我々は大規模言語モデル(LLM)のための新しい評価パラダイムを提案する:T4Dは、社会的なシナリオにおいて、他者の心的状態に関する推論を行動に結びつけることをモデルに要求するものである。T4Dの実験では、GPT-4やPaLM 2のようなLLMは、物語中の登場人物の信念を追跡することに優れているように見えるが、この能力を戦略的行動に変換することに苦労していることが示された。我々の分析によると、LLMの核となる課題は、ToMiのように明示的に尋ねられることなく、心の状態に関する暗黙の推論を識別することにあり、それがT4Dにおいて正しい行動を選択することにつながることが明らかになった。このギャップを埋めるために、我々は、LLMが将来の課題を予測し、潜在的な行動について推論することを促す推論構造を提供する、ゼロショットプロンプティングフレームワーク、Foresee and Reflect (FaR)を導入する。FaRはT4DにおいてGPT-4の性能を50%から71%まで向上させ、Chain-of-ThoughtやSelf-Askといった他のプロンプト手法を凌駕する。さらに、FaRは、行動を選択するためにToM推論を必要とする多様な分布外のストーリー構造やシナリオにも一般化し、数ショットの文脈内学習を含む他の手法を常に凌駕する。
LLMが「心の理論(Theory of Mind, ToM」をどれだけ持っているかは不明確であり、かつ大きな関心テーマでした。
以前から研究成果に上がっているように、LLMがToMを駆使することが広範なタスク能力に大きく影響すると考えられているためです。
しかし従来の心理学的テストではLLMのToM能力の評価は十分には出来ないとされています。
そこで研究者らは、新しい評価パラダイム「Thinking for Doing (T4D)」を提案しています。同時に、「Foresee and Reflect (FaR)」という新しいフレームワークの導入を促しています。
■「FaR」フレームワークとは
LLMに以下の推論を構造的に可能にし、心の理論に基づく具体的なステップを促す
① 将来のイベントを予測(Foresee)
② それに対する行動を考慮(Reflect)
■評価パラダイム「Thinking for Doing (T4D)」
以下の観点でLLMのToM能力を評価する
① 他者の心の状態(信念、願望、意図など)についてどれだけ効果的に推論できるか
② 推論した上でいかに行動に移せるか
■実験の結果
① LLMは一般的なタスクで高い性能を示す
② ToM関連のタスクではまだ限界がある
■結論
「FaR」フレームワークと評価パラダイム「Thinking for Doing (T4D)」の組み合わせによって、効率的にLLMのToM能力を評価することができる
□追加の考察
このようなフレームワークによって、LLMのToM能力を評価することで、LLMの能力をより改善する糸口が見え、将来的な活用範囲が広がる可能性があります。
一方で、LLMが人間のように「心の理論」を持つようになったとき、機械に対してどのような倫理的ポリシーを持つべきかは議論すべきテーマかもしれません。